MiX Knowledge

估计混合交通流中驾驶主体的集体合作性

分类： 物理与社会, 机器学习, 多代理系统

作者： Di Chen, Jia Li, H. Michael Zhang

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2408.07297v1

摘要： 合作是许多包含多个主体的自然、社会和工程系统中普遍存在的现象。出于两个原因，表征和量化驾驶代理的合作性非常有趣且意义重大。理论上，它将增强对微观与宏观连接的理解以及混合流量中合作的出现。实际上，这种理解将有利于自动化和混合自治交通系统的设计和运营。然而，目前尚不清楚如何从经验数据中准确定义和量化合作性，并且何时以及在多大程度上存在集体合作性仍然是一个开放的问题。本文旨在填补这一空白。我们提出了一个统一的概念框架，利用最近的混合自主交通行为平衡模型来估计驾驶主体的集体合作性（Li et al. 2022a）。该框架是可解释的、理论上一致的，并且能够根据轨迹数据量化交通代理的集体合作性。我们利用 NGSIM I-80 轨迹数据集和仔细的数据选择，将该框架应用于多车道高速公路交通。我们的案例研究表明，在现实世界的交通中，人类驾驶的客车和卡车之间存在集体合作，并揭示了其其他未知的特性。

城市交通选择建模：纳入社会文化方面

分类： 多代理系统, 应用领域, 91B69 (primary), 93A16, 90-10 (secondary), I.6

作者： Kathleen Salazar-Serna, Lorena Cadavid, Carlos J. Franco

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21307v1

摘要： 本文介绍了一种基于代理的模拟模型，旨在了解城市通勤者的模式选择并评估交通政策对促进可持续交通的影响。该模型专为功利性出行严重依赖摩托车的发展中国家而设计，整合了影响交通行为的社会文化因素。将多项模型和推论统计应用于哥伦比亚卡利的调查数据，为模型提供信息，揭示社会人口因素和旅行属性对模式选择的重大影响。调查结果强调了成本、时间、安全、舒适和个人保障的重要性，以及不同社会经济群体之间的差异。政策模拟显示了对免费公共交通、增加公交车班次和增强安全性等干预措施的积极反应，但模式选择略有转变。多方面的政策方法被认为更有效，可以满足不同的用户偏好。产出可以扩展到具有相似社会文化特征和交通动态的城市。这项工作中应用的方法可以在其他地区复制。

稳定匹配的分散和不协调学习：博弈论方法

分类： 计算机科学与博弈论, 机器学习, 多代理系统, 社交和信息网络, 系统与控制, 系统与控制

作者： S. Rasoul Etesami, R. Srikant

发布时间： 2024-07-31

链接： http://arxiv.org/abs/2407.21294v1

摘要： 我们考虑以完全分散和不协调的方式学习稳定匹配的问题。在这个问题中，有 $n$ 个男性和 $n$ 个女性，每个人都比对方有偏好。人们假设女性知道自己对男性的偏好，但男性并不知道自己对女性的偏好，只有在向女性求婚并成功匹配时，他们才会知道自己对女性的偏好。如果没有男人和女人比他们当前的匹配更喜欢对方，则匹配被称为稳定的。当所有偏好都是先验已知时，Gale 和 Shapley 提出的著名的延迟接受算法提供了一种分散且不协调的算法来获得稳定的匹配。然而，当偏好未知时，由于缺乏协调，开发这种算法面临着重大挑战。我们通过在非合作博弈中建立稳定匹配和学习纳什均衡（NE）之间的联系来实现这一目标。首先，我们为具有已知偏好的稳定匹配问题提供完整的信息博弈公式，使得其纯NE集合与稳定匹配集合一致，而其混合NE可以以分散的方式舍入到稳定匹配。依靠这样的博弈论公式，我们表明，对于分层市场，采用稳定匹配博弈的指数权重（EXP）学习算法可以实现多项式依赖于玩家数量的对数遗憾，从而回答了先前文献中提出的问题。此外，我们还表明，相同的 EXP 学习算法在一般匹配市场中能够以指数方式快速局部收敛到稳定匹配。我们通过引入另一种分散且不协调的学习算法来补充这一结果，该算法利用稳定匹配博弈的弱无环性，以任意高的概率全局收敛到稳定匹配。

具有多视图观察的非贝叶斯社会学习

分类： 社交和信息网络, 信息论, 多代理系统, 信息论

作者： Dongyan Sui, Weichen Cao, Stefan Vlaski, Chun Guan, Siyang Leng

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20770v1

摘要： 非贝叶斯社会学习使多个智能体通过观察环境信号和信息聚合来进行网络信号和信息处理。传统的非贝叶斯社会学习模型仅考虑单个信号，限制了其在多个信息视角可用的场景中的应用。在这项工作中，我们在信息聚合步骤中利用从多个视角进行观察的独立学习结果，并针对多视图观察场景提出了一种新颖的非贝叶斯社会学习模型。我们证明了模型在传统假设下的收敛性，并为算法在存在误导信号的情况下提供了收敛条件。通过理论分析和数值实验，我们验证了所提出算法的强大可靠性和鲁棒性，展示了其在实际应用中的潜力。

多智能体强化学习中变分量子电路的架构影响：优化的进化策略

分类： 量子物理学, 人工智能, 多代理系统

作者： Michael Kölle, Karola Schneider, Sabrina Egger, Felix Topp, Thomy Phan, Philipp Altmann, Jonas Nüßlein, Claudia Linnhoff-Popien

发布时间： 2024-07-30

链接： http://arxiv.org/abs/2407.20739v1

摘要： 近年来，多智能体强化学习（MARL）在自动驾驶、电信和全球健康等众多科学和工业领域得到了应用。然而，例如，MARL 面临着尺寸呈指数级增长的问题。量子力学的固有特性有助于克服这些限制，例如，通过显着减少可训练参数的数量。先前的研究开发了一种方法，使用无梯度量子强化学习和变分量子电路（VQC）的进化优化来减少可训练参数并避免贫瘠平台和梯度消失。与可训练参数数量相似的经典神经网络相比，VQC 的性能显着提高，并且与类似的良好神经网络相比，参数数量减少了 97% 以上。我们扩展了 K"olle 等人的方法，提出基于门、基于层和基于原型的概念来变异和重组 VQC。我们的结果显示仅突变策略和门的最佳性能特别是，在硬币游戏环境中进行评估时，我们观察到最佳代理的得分明显更高，总硬币数和自己收集的硬币数更高，并且自己的硬币率也更高。

用于安全、可靠和可解释的多智能体强化学习的量子计算和神经形态计算：自主机器人中的最优控制

分类： 新兴技术, 机器学习, 多代理系统

作者： Mazyar Taghavi

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2408.03884v1

摘要： 本文研究了在自主机器人最优控制的背景下利用量子计算和神经形态计算实现安全、可靠和可解释的多智能体强化学习 (MARL)。目标是解决优化自主代理行为的挑战，同时确保安全性、可靠性和可解释性。量子计算技术，包括量子近似优化算法（QAOA），被用来有效地探索大型解决方案空间并找到复杂 MARL 问题的近似解决方案。神经形态计算受人脑架构的启发，提供并行和分布式处理能力，可用于开发智能和自适应系统。这些技术的结合有可能提高自主机器人领域 MARL 的安全性、可靠性和可解释性。这项研究通过探索尖端技术及其在多智能体系统中的应用，为自主机器人技术的进步做出了贡献。代码和数据可用。

异步多Agent TD学习的有限时间分析

分类： 多代理系统

作者： Nicolò Dal Fabbro, Arman Adibi, Aritra Mitra, George J. Pappas

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20441v1

摘要： 最近的研究工作从理论上证明了多智能体强化学习（MARL）中合作的有益效果。在涉及 $N$ 智能体的设置中，这种有益效果通常以 $N$ 倍线性收敛加速的形式出现，即与 $N$ 成比例地减少达到特定收敛所需的迭代次数精确。在本文中，我们首次证明这种加速属性也适用于受本地代理更新异步延迟影响的 MARL 框架。特别是，我们考虑一个策略评估问题，其中多个代理通过与中央聚合器通信来合作评估公共策略。在这种情况下，我们研究了 \texttt{AsyncMATD} 的有限时间收敛，这是一种异步多智能体时间差（TD）学习算法，其中智能体的本地 TD 更新方向受到异步有界延迟的影响。我们的主要贡献是提供 \texttt{AsyncMATD} 的有限时间分析，为此我们建立了线性收敛加速，同时强调了时变异步延迟对最终收敛速度的影响。

消除大多数人的幻想很容易

分类： 多代理系统

作者： Jack Dippel, Max Dupré la Tour, April Niu, Sanjukta Roy, Adrian Vetta

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20187v1

摘要： 多数错觉是社交网络中的一种现象，其中网络中多数人的决定与个人社交圈中多数人的决定并不相同，从而导致对大型网络中多数人的错误认知。在本文中，我们提出了多项式时间算法，该算法可以通过改变尽可能少的连接来消除网络中的多数错觉。此外，我们证明，确保网络中的所有邻域至少占多数的 $p$ 分数这一更普遍的问题对于大多数 $p$ 值来说是 NP 困难的。

导航服务加剧了城市的交通和排放集中度

分类： 多代理系统

作者： Giuliano Cornacchia, Mirco Nanni, Dino Pedreschi, Luca Pappalardo

发布时间： 2024-07-29

链接： http://arxiv.org/abs/2407.20004v1

摘要： 涉及人类与算法（例如助手和推荐器）交互的人类人工智能生态系统的激增引起了人们对大规模社会行为的担忧。尽管在多种情况下都存在这种现象的证据，但 GPS 导航服务的集体影响仍不清楚：虽然对用户有利，但如果太多车辆行驶在同一条道路上，它们也会造成混乱。我们的研究采用模拟框架来评估导航服务对道路网络使用和二氧化碳排放的影响。研究结果表明了一种放大一致性的普遍模式：导航服务采用率的提高导致移动旅行者的路线多样性减少，交通和排放更加集中在较少的道路上，从而加剧了选定社区的负外部性分布不均。尽管导航服务建议在采用率较低时有助于减少二氧化碳排放，但当采用率较高且超过特定的城市和服务相关阈值时，这些好处就会减弱甚至消失。我们将这些发现总结为一个非线性函数，该函数将符合性的边际增加与二氧化碳排放量的边际减少联系起来。我们的模拟方法解决了交通系统的复杂性以及缺乏数据和算法透明度带来的挑战。

用于时空野火缓解的资源高效型去中心化顺序规划器

分类： 机器人技术, 多代理系统

作者： Josy John, Shridhar Velhal, Suresh Sundaram

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19163v1

摘要： 本文提出了一种冲突感知资源高效分散顺序规划器（CREDS），用于使用多个异构无人机（UAV）进行早期野火缓解。多无人机野火管理场景是非平稳的，由于无人机数量和感知范围有限，火灾可能在空间上聚集、动态蔓延、潜在的突发火灾以及部分可观测性。 CREDS 的目标是通过单无人机任务 (SUT) 检测并依次缓解所有不断蔓延的火灾，通过无人机快速干预最大限度地减少生物多样性丧失，并通过避免复杂的多无人机协调来促进资源高效利用。 CREDS 采用三阶段方法，首先使用搜索算法进行火灾检测，然后使用基于拍卖的资源高效分散顺序规划器 (REDS) 生成本地轨迹，并结合新颖的非平稳成本函数（截止日期优先）缓解成本 (DPMC)。最后，冲突感知共识算法解决冲突以确定时空缓解的全局轨迹。对不同火力/无人机比率的异构和同质无人机团队的部分和完全可观测性条件下的 CREDS 性能评估表明，对于高达 4 美元的比率，成功率高达 100%$，对于临界比率，成功率很高5 美元，优于基线。在处理 SUT 缓解的异构期限方面，异构无人机团队的表现优于同类团队。 CREDS 表现出可扩展性和 100%$ 收敛性，展示了针对潜在死锁分配的鲁棒性，与基线方法相比提高了其成功率。

使用无人机团队进行基于遗传算法的野火扑灭路由和调度

分类： 机器人技术, 多代理系统, 神经和进化计算

作者： Josy John, Suresh Sundaram

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19162v1

摘要： 本文讨论了使用无人机团队减轻火灾的早期野火管理。早期检测和缓解系统有助于通过减少资源利用率来减轻破坏。提出了一种基于遗传算法的时间约束路由和调度（GARST），以找到最短的调度路线来减轻火灾，作为单一无人机任务（SUT）。 GARST 的目标是计算无人机的路线和时间表，以便无人机在火灾成为多无人机任务 (MUT) 之前到达指定的火灾地点，并使用灭火器完全扑灭火灾。用于遗传算法的适应度函数是缓解总火灾的总灭火时间。选择、交叉、变异算子和精英策略共同确保了对解空间的探索和利用，保持遗传多样性，防止过早收敛，并保留高性能个体以有效优化解。 GARST 有效地解决了具有时间限制的增长任务的路由和调度 NP 完全问题所带来的挑战。 GARST能够有效处理不可行的场景，有助于野火管理系统的整体优化。

离散和连续 MARL 域中不可预见故障恢复的协作适应

分类： 多代理系统, 机器人技术

作者： Yasin Findik, Hunter Hasenfus, Reza Azadeh

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19144v1

摘要： 协作多智能体学习对于制定有效策略以实现多智能体团队中的个人或共同目标起着至关重要的作用。在现实世界中，特工可能会面临意外的故障，例如机器人的腿出现故障或队友的电池耗尽。这些故障会降低团队完成指定任务的能力，特别是当它们发生在学习算法已经收敛到协作策略之后。当前多智能体强化学习（MARL）的领先方法通常从此类故障中恢复缓慢（如果有的话）。为了克服这一限制，我们提出了协作适应（CA）框架，强调了其在连续和离散领域中运行的独特能力。我们的框架通过将代理间关系集成到学习过程中来增强代理对意外故障的适应性，从而加速从故障中恢复。我们通过离散和连续环境中的实验评估了我们的框架的性能。经验结果表明，在涉及不可预见故障的场景中，尽管最先进的算法通常收敛于次优解决方案，但所提出的 CA 框架可以更有效地缓解和恢复。

关系 Q 函数：多智能体学习从连续动作域中不可预见的机器人故障中恢复

分类： 机器人技术, 多代理系统

作者： Yasin Findik, Paul Robinette, Kshitij Jerath, Reza Azadeh

发布时间： 2024-07-27

链接： http://arxiv.org/abs/2407.19128v1

摘要： 协作多智能体学习方法对于在多智能体领域制定有效的合作策略至关重要。在机器人技术中，这些方法从多机器人场景扩展到单机器人系统，它们能够实现不同机器人模块（例如机器人腿或关节）之间的协调。然而，当前的方法通常难以快速适应不可预见的故障，例如机器人腿故障，尤其是在算法收敛到策略之后。为了克服这个问题，我们引入了关系 Q 函数（RQF）框架。 RQF 利用代表代理关系的关系网络来增强适应性，提供针对故障的恢复能力。我们的算法还可以有效地处理连续的状态动作域，使其适合机器人学习任务。我们的实证结果表明，RQF 使代理能够有效地利用这些关系来促进合作，并从具有多个交互模块的单机器人系统中的意外故障中恢复。因此，我们的方法在多代理系统中提供了有前途的应用，特别是在出现不可预见的故障的情况下。

资源不足能力定位机制设计

分类： 计算机科学与博弈论, 多代理系统, 91A68 91A80 68W25

作者： Gennaro Auricchio, Harry J. Clough, Jie Zhang

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18547v1

摘要： 本文探讨了 $m$ 容量设施位置问题的机制设计方面，其中总设施容量小于代理数量。遵循 Aziz 等人概述的框架，设施位置的社会福利是通过先到先服务（FCFS）游戏确定的，一旦设施位置确定，代理商就进行竞争。当设施数量 $m > 1$ 时，FCFS 博弈的纳什均衡（NE）不唯一，使得代理的效用和真实性概念不明确。为了解决这些问题，我们考虑绝对真实的机制，即无论 FCFS 游戏期间使用什么策略，都可以防止代理误报的机制。我们将这种更严格的真实性要求与均衡稳定（ES）机制的概念结合起来，该机制的社会福利不依赖于 FCFS 游戏的 NE。我们证明了百分位数机制的类别是绝对真实的，并确定了它们是 ES 的条件。我们还证明了每个 ES 百分位数机制的近似比率是有界的并决定了其值。值得注意的是，当所有设施具有相同的容量并且代理数量足够大时，可以实现小于 $1+\frac{1}{2m-1}$ 的近似比率。最后，我们将研究扩展到更高维度的问题。在这个框架内，我们证明了 ES 百分位数机制的类别受到更多限制，并描述了既是 ES 又绝对真实的机制。当代理是分布样本时，我们通过实证评估机制的性能来进一步支持我们的发现。

最低预算的社会有效机制

分类： 计算机科学与博弈论, 多代理系统

作者： Hirota Kinoshita, Takayuki Osogami, Kohei Miyaguchi

发布时间： 2024-07-26

链接： http://arxiv.org/abs/2407.18515v1

摘要： 在战略主体的社会决策中，普遍关注的是社会利益与个人利益之间的平衡。因此，社会有效机制的设计不仅要实现社会福利最大化，还要激励代理人谋取自身利益。在包括双重拍卖和交易网络等应用的广义模型下，本研究建立了一种社会有效（SE）、主导策略激励兼容（DSIC）和个人理性（IR）机制，使代理人的总预算支出最小。本方法利用离散且已知类型的域来将一组约束减少为加权图中的最短路径问题。除了理论推导之外，我们还通过数值实验证实了所提出机制的最优性，它证明了在多种情况下其预算严格低于 Vickery-Clarke-Groves (VCG) 机制。

参与式预算中的战略成本选择

分类： 计算机科学与博弈论, 多代理系统

作者： Piotr Faliszewski, Łukasz Janeczko, Andrzej Kaczmarczyk, Grzegorz Lisowski, Piotr Skowron, Stanisław Szufa

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18092v1

摘要： 我们研究基于批准的参与式预算（PB）背景下项目提案者的战略行为。在我们的模型中，我们假设投票是固定且已知的，并且提议者希望设定尽可能高的项目价格，前提是他们的项目被选中并且价格不低于其交付的最低成本。我们研究此类博弈中纯纳什均衡 (NE) 的存在性，重点关注 AV/Cost、Phragm'en 和平等份额方法规则。此外，我们还报告了一项基于真实 PB 选举数据的战略成本选择的实验研究。

委托代理强化学习

分类： 计算机科学与博弈论, 机器学习, 多代理系统

作者： Dima Ivanov, Paul Dütting, Inbal Talgam-Cohen, Tonghan Wang, David C. Parkes

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18074v1

摘要： 合同是一种经济框架，允许委托人将任务委托给代理人——尽管存在利益不一致，甚至无需直接观察代理人的行为。在许多现代强化学习环境中，自利代理学习执行委托人委托给他们的多阶段任务。我们探索利用合同来激励代理商的巨大潜力。我们将委托任务建模为 MDP，并研究委托人和代理之间的随机博弈，其中委托人学习要使用的合约，代理学习 MDP 策略作为响应。我们提出了一种基于学习的算法来优化委托人合同，该算法可证明收敛于委托代理博弈的子博弈完美均衡。深度 RL 实现允许我们将我们的方法应用于具有未知转换动态的非常大的 MDP。我们将我们的方法扩展到多个智能体，并证明了它与解决典型的连续社会困境的相关性，并且对智能体奖励的干预最少。

行动成本最小化的随机博弈

分类： 多代理系统

作者： David Mguni

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.18010v1

摘要： 在许多多人互动中，玩家每次执行操作时都会产生严格的正成本，例如金融系统中的“菜单成本”或交易成本。由于抓住每一个可用的机会采取行动都会积累令人望而却步的巨大成本，因此所产生的决策问题是，除了行动选择之外，参与者还必须就何时执行行动做出战略决策。本文分析了一种离散时间随机博弈（SG），其中玩家的每个动作都面临最小限度的正成本，并使用脉冲控制影响系统。我们证明了双边脉冲控制的 SG 具有独特的价值，并描述了鞍点均衡，其中玩家根据马尔可夫策略在战略选择的时间执行行动。我们证明该游戏遵循动态规划原理，并且马尔可夫完美均衡可以计算为贝尔曼操作序列的极限点。然后，我们引入了一种新的 Q 学习变体，我们证明它几乎肯定会收敛到游戏的价值，从而能够在未知的环境中提取解决方案。最后，我们将结果扩展到有预算限制的环境。

有限投票以获得更好的代表性？

分类： 计算机科学与博弈论, 多代理系统

作者： Maaike Venema-Los, Zoé Christoff, Davide Grossi

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17973v1

摘要： 有限投票（LV）是一种基于批准的多获胜者选举方法，其中所有选票都必须具有相同的固定大小。虽然它似乎被用作公司治理中的投票方法并且具有一些政治应用，但据我们所知，迄今为止还没有对该规则的正式分析。我们在此提供这样的分析，是由于荷兰一家健康保险公司就该投票规则征求建议而提出的，该公司利用该投票规则来选举其工作委员会。我们研究了 LV 在什么情况下会提高标准批准投票的代表性，什么情况下不会。我们从多样性和比例概念方面确定了这种改进的程度或缺乏程度。这些结果帮助我们了解 LV 是否可以以及如何被用作批准投票的省力解决方案，以增强代表性。

AgentScope 中的超大规模多智能体模拟

分类： 多代理系统, 人工智能

作者： Xuchen Pan, Dawei Gao, Yuexiang Xie, Zhewei Wei, Yaliang Li, Bolin Ding, Ji-Rong Wen, Jingren Zhou

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17789v1

摘要： 大型语言模型（LLM）的最新进展为在超大规模模拟中应用多智能体系统开辟了新途径。然而，在现有平台上进行多智能体模拟时仍然存在一些挑战，例如可扩展性有限、效率低下、智能体多样性不令人满意以及管理流程费力等。为了应对这些挑战，我们为 AgentScope（一个用户友好的多智能体平台）开发了一些新功能和组件，增强了其支持超大规模多智能体模拟的便利性和灵活性。具体来说，我们提出了一种基于参与者的分布式机制作为底层技术基础设施，以实现巨大的可扩展性和高效率，并为模拟各种现实场景提供灵活的环境支持，从而实现多个代理的并行执行、集中式工作流编排以及两者之间的交互。 -智能体之间的智能体和智能体-环境交互。此外，我们在 AgentScope 中集成了易于使用的可配置工具和自动后台生成管道，简化了创建具有多样化且详细的后台设置的代理的过程。最后但并非最不重要的一点是，我们提供了一个基于 Web 的界面，可以方便地监视和管理可能跨多个设备部署的大量代理。我们进行了全面的模拟，以证明 AgentScope 中提出的增强功能的有效性，并提供详细的观察和讨论，以突出在大规模模拟中应用多智能体系统的巨大潜力。源代码发布在 GitHub 上：https://github.com/modelscope/agentscope，以激发大规模多智能体模拟的进一步研究和开发。

社交小游戏中无死锁多智能体导航的策略伪目标扰动

分类： 多代理系统, 机器人技术

作者： Abhishek Jha, Tanishq Gupta, Sumit Singh Rawat, Girish Kumar

发布时间： 2024-07-25

链接： http://arxiv.org/abs/2407.17766v1

摘要： 这项工作引入了战略伪目标扰动（SPGP）技术，这是一种解决多智能体导航场景中死锁情况的新方法。利用安全屏障证书的强大框架，我们的方法集成了一种战略扰动机制，可以指导代理完成经常发生僵局和碰撞的社交迷你游戏。该方法采用策略计算过程，智能体在遇到死锁时选择当前位置周围预定半径内的伪目标来解决智能体之间的死锁。计算基于受控的策略算法，确保对伪目标的偏离在解决僵局方面既是有目的的又是有效的。一旦智能体到达伪目标，它就会恢复通往原始目标的路径，从而提高导航效率和安全性。实验结果证明了 SPGP 在各种多智能体导航场景中减少死锁实例并提高整体系统吞吐量的功效。

MOMAland：多目标多智能体强化学习的一组基准

分类： 多代理系统, 人工智能, 计算机科学与博弈论

作者： Florian Felten, Umut Ucak, Hicham Azmani, Gao Peng, Willem Röpke, Hendrik Baier, Patrick Mannion, Diederik M. Roijers, Jordan K. Terry, El-Ghazali Talbi, Grégoire Danoy, Ann Nowé, Roxana Rădulescu

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16312v1

摘要： 许多具有挑战性的任务，例如管理交通系统、电网或供应链，都涉及复杂的决策过程，必须平衡多个相互冲突的目标并协调各个独立决策者 (DM) 的行动。形式化和解决此类任务的一种视角是多目标多智能体强化学习（MOMARL）。 MOMARL 将强化学习 (RL) 扩展到多个智能体的问题，每个智能体都需要在学习过程中考虑多个目标。在强化学习研究中，基准对于促进进展、评估和可重复性至关重要。为各种 RL 范式开发的众多基准框架的存在强调了基准的重要性，包括单代理 RL（例如 Gymnasium）、多代理 RL（例如 PettingZoo）和单代理多目标 RL（例如，MO-体育馆）。为了支持 MOMARL 领域的进步，我们推出了 MOMAland，这是第一个用于多目标多智能体强化学习的标准化环境集合。 MOMAland 满足了这一新兴领域的综合基准测试需求，提供了 10 多种不同的环境，这些环境在代理数量、国家代表、奖励结构和效用考虑因素方面各不相同。为了为未来的研究提供强有力的基线，MOMAland 还提供了能够在此类环境中学习政策的算法。

（演示）在代理模拟中使用场景进行系统实验：超越参数空间

分类： 多代理系统

作者： Vivek Nallur, Pedram Aghaei, Graham Finlay

发布时间： 2024-07-23

链接： http://arxiv.org/abs/2407.16294v1

摘要： 本文演示了一种断开连接的 ABM 架构，该架构使领域专家和非程序员能够在无需程序员干预的情况下向 ABM 模型添加定性见解。架构内的这种角色分离允许政策制定者系统地试验多种政策干预措施、不同的起始条件和可视化来询问他们的 ABM

通过离线联盟选择和基于图的搜索更快地生成最佳联盟结构

分类： 多代理系统, 人工智能, 计算机科学与博弈论, I.2; F.2

作者： Redha Taguelmimt, Samir Aknine, Djamila Boukredera, Narayan Changder, Tuomas Sandholm

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.16092v1

摘要： 联盟的形成是多智能体系统的一项关键能力。联盟形成中的一个重要问题是联盟结构的生成：将主体划分为联盟以优化社会福利。这是一个具有挑战性的问题，在过去的三十年里一直是积极研究的主题。在本文中，我们针对该问题提出了一种新颖的算法 SMART，该算法基于三种创新技术的混合。其中两种技术基于动态规划，我们展示了选择用于评估的联盟与算法性能之间的强大联系。这些算法使用离线阶段来优化要评估的联盟的选择。第三种方法使用分支定界和整数分区图搜索来探索解空间。我们的技术为该领域带来了解决问题的新方法和新的精度水平。在对几种常见价值分布的实验中，我们表明，SMART 中这些技术的混合在生成所有价值分布的最佳解决方案方面比最快的现有算法（ODP-IP、BOSS）更快。

重复博弈热力学极限下的选择压力/噪声驱动的合作行为

分类： 统计力学, 多代理系统, 理论经济学, 计算物理, 种群与进化

作者： Rajdeep Tah, Colin Benjamin

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15801v1

摘要： 考虑这样的场景：在 \textit{repeated} 设置中，无限数量的玩家（即 \textit{热力学} 限制）发现自己处于囚徒困境类型的情况。在这种情况下，是否可以合理地预期合作将会出现？本文通过研究合作行为的出现来解决这个问题，在存在 \textit{noise} 的情况下（或者在 \textit{选择压力} 下），在重复的囚徒困境博弈中，涉及诸如 \textit{Tit-for 等策略-Tat}、\textit{Always Defect}、\textit{GRIM}、\textit{Win-Stay、Lose-Shift} 等。为了分析这些博弈，我们采用基于代理的数值模型（ABM），并将其与分析纳什均衡映射（NEM）技术进行比较，两者都基于 \textit{1D}-Ising 链。我们使用 \textit{游戏磁化} 作为合作行为的指标。一个重要的发现是，对于一些重复的游戏，游戏磁化强度的不连续性表明 \textit{一阶}阶 \textit{选择压力/噪声}驱动的相变。相变是特定于参与者不会严厉惩罚单个叛逃的策略的。我们还观察到，在这些特殊情况下，相变关键取决于在热力学极限下进行游戏的 \textit{rounds} 数量。对于所有五款游戏，我们发现 ABM 和 NEM 与游戏磁化相结合，为无限玩家重复囚徒困境游戏中如何出现合作行为提供了关键的输入。

TaskGen：使用 StrictJSON 的基于任务、内存注入的代理框架

分类： 人工智能, 多代理系统

作者： John Chong Min Tan, Prince Saroj, Bharat Runwal, Hardik Maheshwari, Brian Lim Yi Sheng, Richard Cottrill, Alankrit Chona, Ambuj Kumar, Mehul Motani

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15734v1

摘要： TaskGen 是一个开源代理框架，它使用代理通过将任意任务分解为子任务来解决它们。每个子任务都映射到一个配备的功能或另一个代理来执行。为了减少冗长（从而减少令牌使用），TaskGen 使用 StrictJSON 确保大型语言模型 (LLM) 的 JSON 输出，以及类型检查和迭代纠错等附加功能。 TaskGen 理念的关键是在需要知道的基础上管理信息/内存。我们在各种环境下对 TaskGen 进行实证评估，例如具有不断变化的障碍物位置的 40x40 动态迷宫导航（100% 解决率）、具有密集奖励和详细目标的 TextWorld 逃生室解决方案（96% 解决率）、网页浏览（69% 的操作成功），解决 MATH 数据集（超过 100 个 5 级问题的解决率为 71%），NaturalQuestions 数据集上的检索增强生成（F1 得分为 47.03%）

使用控制屏障功能在杂乱和未知环境中进行机器人牧羊

分类： 机器人技术, 多代理系统

作者： Mahmoud Hamandi, Farshad Khorrami, Anthony Tzes

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15701v1

摘要： 本文介绍了一种新颖的控制方法，旨在使用机器狗在杂乱且未知的环境中引导一群机器羊。狗代理不断扫描环境并计算安全轨迹以引导羊到达最终目的地。所提出的基于优化的控制器通过使用控制屏障函数（CBF）保证绵羊位于距参考轨迹的期望距离内。同时采用额外的 CBF 约束来确保避免代理间和障碍物碰撞。该方法的有效性在模拟中经过了严格的测试，这证明了机器羊在复杂和杂乱的环境中成功的放牧。

具有自由意志任意时间收敛的领导者-跟随者网络的合作齐射指导

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制, 动力系统, 优化与控制

作者： Rajib Shekhar Pal, Shashi Ranjan Kumar, Dwaipayan Mukherjee

发布时间： 2024-07-22

链接： http://arxiv.org/abs/2407.15324v1

摘要： 本文提出了一种协作齐射策略，该策略在预先定义的任意稳定时间内在拦截器之间达成共识。考虑到非线性交战运动学和捕捉现实拦截场景中拦截机自动驾驶仪效果的系统滞后，制导方案使用拦截机的剩余飞行时间估计，以实现对静止目标的同时拦截。预定的影响时间。该制导方案确保拦截器的剩余飞行时间估计之间在稳定时间内达成共识，该稳定时间内的上限可以独立于初始条件或设计参数任意预先指定。使用数值模拟证明了所提出的制导策略的有效性，该数值模拟具有不同的拦截器初始位置、速度和航向角误差条件以及不同的期望撞击时间。

B2MAPO：平衡性能和效率的批量多代理策略优化

分类： 多代理系统

作者： Wenjing Zhang, Wei Zhang, Wenqing Hu, Yifan Wang

发布时间： 2024-07-21

链接： http://arxiv.org/abs/2407.15077v1

摘要： 大多数多智能体强化学习方法采用两种类型的策略优化方法，即同时更新策略或顺序更新策略。同时更新所有智能体的策略会带来非平稳性问题。虽然以适当的顺序逐个智能体顺序更新策略可以提高策略性能，但由于顺序执行，很容易导致效率低下，导致模型训练和执行时间更长。直观上，根据相互依赖关系对所有智能体的策略进行分区并逐批更新联合策略可以有效平衡性能和效率。然而，如何确定最优的策略批量划分和批量更新顺序是具有挑战性的问题。首先，提出了一种顺序批量策略更新方案B2MAPO（逐批多代理策略优化），并在理论上保证了单调增量紧缩界限。其次，设计了一个满足CTDE原则的通用模块化即插即用B2MAPO分层框架，可以方便地集成任何MARL模型，以充分利用和融合它们的优点，包括策略最优性和推理效率。接下来，设计了基于DAG的B2MAPO算法，这是B2MAPO框架的精心设计的实现。在《星际争霸 II 多智能体挑战赛》和 Google Football Research 上进行的综合实验结果表明，基于 DAG 的 B2MAPO 算法的性能优于基线方法。同时，与A2PO相比，我们的算法分别减少了模型训练和执行时间60.4%和78.7%。

POGEMA：协作多智能体导航的基准平台

分类： 机器学习, 人工智能, 多代理系统

作者： Alexey Skrynnik, Anton Andreychuk, Anatolii Borzilov, Alexander Chernyavskiy, Konstantin Yakovlev, Aleksandr Panov

发布时间： 2024-07-20

链接： http://arxiv.org/abs/2407.14931v1

摘要： 多智能体强化学习（MARL）最近在解决各种环境中具有挑战性的合作和竞争性多智能体问题方面表现出色，大多数情况下智能体很少且具有完全可观察性。此外，一系列与机器人相关的关键任务，例如多机器人导航和避障，通常采用经典的不可学习方法（例如启发式搜索）来解决，目前建议通过基于学习的方法来解决或混合方法。尽管如此，在这个领域，由于缺乏支持学习和评估的统一框架，很难（不是说不可能）对经典方法、基于学习的方法和混合方法进行公平比较。为此，我们推出了 POGEMA，这是一套综合工具，包括快速学习环境、问题实例生成器、预定义实例集合、可视化工具包以及允许自动评估的基准测试工具。我们引入并指定了一个评估协议，定义了在主要评估指标（例如成功率和路径长度）的基础上计算的一系列与领域相关的指标，从而允许公平的多重比较。此类比较的结果涉及各种最先进的 MARL、基于搜索的方法和混合方法。

价值内化：从社会奖励中学习和概括

分类： 机器学习, 人工智能, 多代理系统

作者： Frieda Rong, Max Kleiman-Weiner

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14681v1

摘要： 社会奖励塑造人类行为。在发展过程中，看护者引导学习者的行为朝着文化上一致的目标和价值观发展。当照顾者不再存在并且学习者必须自主继续时，这些行为如何持续和普遍化？在这里，我们提出了一种价值内化模型，其中社会反馈训练内部社会奖励（ISR）模型，该模型在社会奖励不可用时生成内部奖励。通过实证模拟，我们表明 ISR 模型可以防止智能体忘记社会化行为，并能够在分布外任务中进行泛化。我们描述了不完全内化的影响，类似于 ISR 上的“奖励黑客”。此外，我们表明我们的模型将多主体环境中的亲社会行为内化。我们的工作为理解人类如何获取和概括价值观奠定了基础，并提供了使人工智能与人类价值观保持一致的见解。

自主计算的愿景：大语言模型能否使其成为现实？

分类： 人工智能, 计算和语言, 分布式、并行和集群计算, 多代理系统, 软件工程

作者： Zhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14402v1

摘要： 二十多年前提出的自主计算 (ACV) 愿景设想计算系统能够像生物有机体一样进行自我管理，无缝适应不断变化的环境。尽管经过数十年的研究，由于现代计算系统的动态性和复杂性，实现 ACV 仍然具有挑战性。大型语言模型 (LLM) 的最新进展通过利用其丰富的知识、语言理解和任务自动化功能，为这些挑战提供了有前景的解决方案。本文探讨了通过基于LLM的多代理框架实现微服务管理的ACV的可行性。我们引入了自主服务维护的五级分类法，并提出了基于 Sock Shop 微服务演示项目的在线评估基准来评估我们框架的性能。我们的研究结果表明，在实现 3 级自治方面取得了重大进展，突显了大语言模型在检测和解决微服务架构中的问题方面的有效性。这项研究通过开创性地将大语言模型集成到微服务管理框架中，为推进自主计算做出了贡献，为更具适应性和自我管理的计算系统铺平了道路。该代码将在 https://aka.ms/ACV-LLM 上提供。

使用有效的成本效用方法进行多机器人迷宫探索

分类： 多代理系统

作者： Manousos Linardakis, Iraklis Varlamis, Georgios Th. Papadopoulos

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14218v1

摘要： 在现代机器人领域，事实证明，机器人在应对高风险情况方面非常有用，例如在燃烧的建筑物、地震灾区等危险环境中航行，或在犯罪猖獗的街道上巡逻，以及探索未知的洞穴。这些场景在复杂性方面与迷宫探索问题有相似之处。虽然已经为单智能体系统提出了几种方法，从势场到洪水填充方法，但最近的研究工作集中在创建适合多智能体的方法，以提高迷宫覆盖的质量和效率。本文的贡献是实施已建立的迷宫探索方法，并将其与为多个智能体设计的新成本效用算法进行比较，该算法结合了现有的方法来优化探索结果。通过全面的比较分析，本文根据文献中已实施的基线方法评估了新方法的性能，突出了其在各种场景下的有效性和潜在优势。支持这项研究的代码和实验结果可在以下存储库中找到（https://github.com/manouslinard/multiagent-exploration/）。

DataStorm-EM：连续耦合仿真集成中替代时间线的探索

分类： 多代理系统

作者： Fahim Tasneema Azad, Javier Redondo Anton, Shubhodeep Mitra, Fateh Singh, Hans Behrens, Mao-Lin Li, Bilgehan Arslan, K. Selçuk Candan, Maria Luisa Sapino

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14571v1

摘要： 许多社会经济关键领域（例如可持续性、公共卫生和灾害）的特点是高度复杂和动态的系统，需要数据和模型驱动的模拟来支持决策。由于存在大量的未知因素，决策者通常需要生成随机场景的集合，需要数百或数千个单独的模拟实例，每个实例具有对应于不同场景的不同参数设置，随着模型参数数量的增加，人们可以模拟呈指数增长的潜在时间线。因此，模拟系综本质上是稀疏的，即使它们非常大。这就需要一个平台来（a）决定执行哪些模拟实例，（b）给定一个大型模拟整体，使决策者能够通过从连续耦合的模拟整体中提取和可视化一致但多样化的时间线来探索由此产生的替代时间线。在本文中，我们介绍了用于数据和模型驱动的仿真集成管理、优化、分析和探索的 DataStorm-EM 平台，描述了潜在的挑战并提出了我们的解决方案。

集成推拉式更新模型，实现目标导向的有效沟通

分类： 信息论, 人工智能, 多代理系统, 网络和互联网架构, 信息论

作者： Pouya Agheli, Nikolaos Pappas, Petar Popovski, Marios Kountouris

发布时间： 2024-07-19

链接： http://arxiv.org/abs/2407.14092v1

摘要： 本文研究以目标为导向的有效沟通的决策。我们考虑一个端到端的状态更新系统，其中传感代理 (SA) 观察源、生成更新并将其传输给驱动代理 (AA)，而 AA 则采取行动以实现端点的目标。我们集成基于推和拉的更新通信模型以获得推拉模型，该模型允许SA的传输控制器决定将更新推送到AA，并且允许AA的查询控制器通过以下方式拉取更新：在特定时间实例提出查询。为了衡量有效性，我们使用有效性等级 (GoE) 指标，将更新的新鲜度、有用性和行动的及时性作为定性属性。然后，我们得出效果感知策略，以最大程度地提高更新效果的预期折扣总和（受诱发成本影响）。 SA 的效果感知策略考虑端点处传达的更新的潜在有效性，而 AA 则考虑源的概率演化和生成的更新的重要性。我们的结果表明，所提出的推拉模型在效率和有效性方面均优于仅基于推或拉更新的模型。此外，与在任一代理或两个代理处使用周期性和/或概率效果不可知的策略相比，在两个代理处使用效果感知策略增强了有效性。

匹配驱动的深度强化学习，用于多网关 LoRa 网络中的节能传输参数分配

分类： 多代理系统, 网络和互联网架构, 信号处理

作者： Ziqi Lin, Xu Zhang, Shimin Gong, Lanhua Li, Zhou Su, Bo Gu

发布时间： 2024-07-18

链接： http://arxiv.org/abs/2407.13076v1

摘要： 远程（LoRa）通信技术以其功耗低、通信距离远的特点，在物联网领域得到广泛应用。然而，LoRa MAC层采用纯ALOHA进行介质访问控制，随着网络规模的扩大，可能会出现严重的数据包冲突，从而降低系统能效（EE）。为了解决这个问题，仔细分配传输参数（例如信道（CH）、传输功率（TP）和扩频因子（SF））到每个终端设备（ED）至关重要。由于 LoRa 网络的低占空比和零星流量，在各种参数设置下评估系统 EE 被证明是非常耗时的。因此，我们提出了一种分析模型，旨在计算系统 EE，同时充分考虑多个网关、占空比、准正交 SF 和捕获效应的影响。在此基础上，我们研究了CH、SF和TP联合分配问题，目的是优化上行链路传输的系统EE。由于问题的NP-hard复杂性，优化问题被分解为两个子问题：CH分配和SF/TP分配。首先，引入基于匹配的算法来解决CH分配子问题。然后，采用基于注意力的多智能体强化学习技术来解决分配给同一CH的ED的SF/TP分配子问题，从而减少学习智能体的数量以实现快速收敛。仿真结果表明，所提出的方法在各种参数设置下都能快速收敛，并且获得比基线算法明显更好的系统 EE。

动态游戏中的信息压缩

分类： 计算机科学与博弈论, 多代理系统, 系统与控制, 系统与控制, 优化与控制, 统计理论, 统计理论, 90C40, 91A10, 91A15, 91A25, 91A50

作者： Dengwang Tang, Vijay Subramanian, Demosthenis Teneketzis

发布时间： 2024-07-17

链接： http://arxiv.org/abs/2407.12318v1

摘要： 具有底层动态系统的随机动态博弈具有挑战性的原因之一是，战略参与者可以获得大量信息，这导致在均衡时使用极其复杂的策略。解决这一挑战的一种方法是通过识别信息图的适当压缩来简化玩家的策略，以便玩家可以仅根据信息的压缩版本（称为信息状态）做出决策。对于具有不对称信息的有限动态博弈，受单智能体控制问题的信息状态概念的启发，我们提出了两种信息状态概念，即相互充分信息（MSI）和单方面充分信息（USI）。这两种信息状态都是通过独立于策略配置文件的信息压缩图获得的。我们证明，当所有玩家都使用基于 MSI 的策略时，贝叶斯-纳什均衡 (BNE) 和序贯均衡 (SE) 就存在。我们证明，当所有参与者都采用基于 USI 的策略时，所得到的 BNE 和 SE 收益曲线集与所有参与者使用完全基于信息的策略时所得到的 BNE 和 SE 收益曲线集是相同的。我们证明，当所有玩家都使用基于 USI 的策略时，所得到的一组弱完美贝叶斯均衡 (wPBE) 收益曲线可以是所有 wPBE 收益曲线的适当子集。我们在文献中的动态游戏特定模型中识别了 MSI 和 USI。最后，我们提出一个开放性问题：是否存在依赖于策略的信息压缩图来保证至少一个均衡的存在或维持完美召回下存在的所有均衡？我们通过反例表明，文献中使用的众所周知的策略相关信息压缩图不具备 MSI 或 USI 的任何属性。

Spike Talk：创世纪和神经编码方案翻译

分类： 信号处理, 信息论, 多代理系统, 系统与控制, 系统与控制, 信息论

作者： Subham Sahoo

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2408.00773v1

摘要： 尽管未来电网的数字化提供了多种协调激励，但信息和通信技术（ICT）的可靠性和安全性阻碍了其整体性能。在本文中，我们引入了一种新颖的架构 Spike Talk，通过电力和信息的统一表示作为数据标准化的手段，使用尖峰来协调控制微电网。这种电网边缘技术允许每个分布式能源（DER）通过沿联络线的功率流相互交互，独立地执行分散的二次控制理念。受计算神经科学领域的启发，Spike Talk 基本上建立在我们大脑中信息传输理论的细粒度并行性之上，特别是当神经元（建模为 DER）通过突触传输信息（从每个 DER 上可测量的功率流推断）时（建模为联络线）。 Spike Talk 不仅通过消除 ICT 层来简化和解决当前网络物理架构操作的瓶颈，而且在基础设施开发、计算和建模方面提供了内在的操作和成本效益机会。因此，本文提供了关键概念和设计理论的教学说明。由于我们在本文中重点关注微电网的协调控制，因此研究了几种负责将实值局部测量值转换为尖峰的神经编码方案的信号准确性和系统性能。

基于图的对抗性模仿学习框架，用于城市空中交通中可靠和实时的机队调度

分类： 机器学习, 人工智能, 多代理系统

作者： Prithvi Poddar, Steve Paul, Souma Chowdhury

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.12113v1

摘要： 城市空中交通 (UAM) 的出现为城市交通领域带来了变革。然而，其广泛采用和经济可行性部分取决于在空域拥堵、天气条件变化和需求变化带来的不确定性下，在 UAM 网络中的垂直机场优化调度机队的能力。本文提出了车队调度问题的综合优化公式，同时还确定了对替代解决方法的需求，因为直接求解所得的整数非线性规划问题对于日常车队调度来说在计算上是禁止的。之前的工作已经证明了使用（图）强化学习（RL）方法来训练用于车队调度的实时可执行策略模型的有效性。然而，此类策略在分布外场景或边缘情况下通常可能很脆弱。此外，随着问题复杂性（例如约束数量）的增加，训练性能也会恶化。为了解决这些问题，本文提出了一种模仿学习方法，其中基于强化学习的策略利用通过使用遗传算法解决精确优化而产生的专家演示。该策略模型包括基于图神经网络 (GNN) 的编码器（嵌入垂直起落场和飞机的空间）、Transformer 网络（用于编码需求、乘客票价和运输成本概况）以及基于多头注意力 (MHA) 的解码器。通过生成对抗模仿学习（GAIL）算法使用专家演示。与涉及 8 个垂直起落场和 40 架飞机的 UAM 模拟环境对接，在每日利润奖励方面，与纯 RL 结果相比，新的模拟方法实现了更好的平均性能，并且在未见的最坏情况情况下取得了显着改善。

选举地图

分类： 多代理系统, 计算机科学与博弈论

作者： Stanisław Szufa

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11889v1

摘要： 我们的主要贡献是引入了选举框架地图。选举地图由三个主要元素组成：(1) 选举数据集（即对给定候选人集的顺序投票的集合），(2) 衡量这些选举之间相似性的方法，以及 (3) 的表示将二维欧几里得空间中的选举视为点，因此两个选举越相似，它们的点越接近。在我们的地图中，我们主要关注综合选举的数据集，但我们也展示了现实生活中的地图示例。为了测量相似性，我们更愿意使用同构交换距离，但由于其高计算复杂性，这是不可行的。因此，我们提出多项式时间可计算位置距离并使用它。关于二维欧几里得空间中的表示，我们主要使用 Kamada-Kawai 算法，但我们也展示了两种替代方案。我们开发了必要的理论结果来形成我们的地图，并通过实验证明它们是准确和可信的。此外，我们还展示了如何根据各种标准对地图中的选举进行着色有助于分析大量实验的结果。特别是，我们根据获胜候选人或委员会的分数、基于 ILP 的获胜者确定算法的运行时间以及特定算法实现的近似比率来显示颜色。

学习模仿多机器人系统中的空间组织

分类： 机器人技术, 多代理系统

作者： Ayomide O. Agunloye, Sarvapali D. Ramchurn, Mohammad D. Soorati

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11592v1

摘要： 了解集体行为及其演变方式对于确保机器人群在共享环境中得到信任非常重要。了解群体行为的一种方法是使用先前的演示来重建集体行为。现有方法通常需要访问可能不可用的集群控制器。我们在涉及共享环境的不同群体场景中重建集体行为，而不使用群体控制器信息。我们通过在使用多智能体生成对抗性模仿学习（MA-GAIL）进行行为重建之前将先前的演示转换为充分描述多智能体交互的特征来实现这一目标。我们表明，我们的方法在所有研究的群体场景中都优于现有算法，并且可用于观察和重建群体的行为以进行进一步的分析和测试，这对于原始机器人群体来说可能是不切实际或不可取的。

导航群体：深度神经网络指挥突发行为

分类： 神经和进化计算, 机器学习, 多代理系统, 适应和自组织系统

作者： Dongjo Kim, Jeongsu Lee, Ho-Young Kim

发布时间： 2024-07-16

链接： http://arxiv.org/abs/2407.11330v1

摘要： 复杂系统中相互作用的个体通常会产生相干运动，表现出协调的全局结构。这种现象在自然界中随处可见，从细胞迁移、细菌群、动物和昆虫群体，甚至人类社会。导致集体行为出现的主要机制已被广泛识别，包括基于平均或相对速度的局部对齐、非局部成对排斥-吸引相互作用（例如基于距离的电位）、局部和非局部相互作用之间的相互作用以及认知基于非均匀相互作用。然而，发现如何调整这些机制来调节突发行为仍然难以实现。在这里，我们证明，通过微调代理间交互规则，可以在期望的时刻以预期的全局模式生成集体行为的协调结构。我们的策略采用深度神经网络，遵循动力学定律，找到指挥所需集体结构的交互规则。将交互规则分解为由多项式级数表示的距离和对齐力，有助于训练神经网络以提出所需的交互模型。所提供的示例包括改变旋涡群中簇的平均半径和大小、从随机状态转变为有序状态的时间，以及在典型的集体运动模式之间连续转换。这种策略甚至可以用来叠加集体模式，从而产生迄今为止尚未探索但高度实用的混合集体模式，例如保护性安全阵型。我们的研究结果揭示了创建和控制集体运动的创新策略，为机器人群操作、活性物质组织以及揭示生物系统中晦涩的相互作用规则的新应用铺平了道路。

当AI遇见金融（StockAgent）：模拟现实环境中基于大语言模型的股票交易

分类： 交易和市场微观结构, 人工智能, 多代理系统

作者： Chong Zhang, Xinyi Liu, Mingyu Jin, Zhongmou Zhang, Lingyao Li, Zhenting Wang, Wenyue Hua, Dong Shu, Suiyuan Zhu, Xiaobo Jin, Sujian Li, Mengnan Du, Yongfeng Zhang

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.18957v2

摘要： AI Agent能否模拟真实的交易环境来调查外部因素（例如宏观经济、政策变化、公司基本面和全球事件）对股票交易活动的影响？这些经常影响交易行为的因素是追求投资者利润最大化的关键因素。我们的工作试图通过基于大型语言模型的代理来解决这个问题。我们开发了一个名为 StockAgent 的多智能体人工智能系统，由大语言模型驱动，旨在模拟投资者对真实股票市场的交易行为。 StockAgent允许用户评估不同外部因素对投资者交易的影响，并分析交易行为和盈利效果。此外，StockAgent避免了现有基于AI Agent的交易模拟系统中存在的测试集泄漏问题。具体来说，它阻止模型利用它可能已经获得的与测试数据相关的先验知识。我们在 StockAgent 的框架下，在非常类似于现实世界条件的股票交易环境中评估不同的大语言模型。实验结果论证了关键外部因素对股市交易的影响，包括交易行为和股价波动规则。本研究探讨了在没有与市场数据相关的先验知识的情况下对代理商自由交易缺口的研究。通过 StockAgent 模拟识别的模式为基于大语言模型的投资建议和股票推荐提供了宝贵的见解。代码可在 https://github.com/MingyuJ666/Stockagent 获取。

两种策略人口博弈中利他反常的条件

分类： 计算机科学与博弈论, 多代理系统

作者： Colton Hill, Philip N. Brown, Keith Paarporn

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11250v1

摘要： 个人的自私行为可能会导致不良的社会后果。这些结果似乎可以通过利他代理人的行为得到改善，这有利于系统中的其他代理人。然而，众所周知，在特定情况下，与完全自私的群体相比，利他行为实际上会导致更糟糕的结果——我们将这种现象称为利他反常。本文对产生利他性变态的必要条件进行了全面的调查。特别是，我们研究了一类双策略人口博弈，其中一个子群体是利他的，另一个是自私的。我们发现，只有当相关的社会福利函数是凸的并且利他人口足够大时，人口博弈才能承认利他主义反常现象。我们的结果是在名义代理人互动的属性与利他行为的潜在影响之间建立联系的第一步。

双圆受限四体问题中航天器轨道和姿态相对运动约束控制的时移调节器

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制

作者： Taehyeun Kim, Ilya Kolmanovsky, Anouck Girard

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.11170v1

摘要： 本文考虑了双圆受限四体问题（BCR4BP）背景下的约束航天器交会对接（RVD），同时考虑了姿态动力学。我们考虑在日-地-月系统的近直线晕轨道 (NRHO) 中进行 RVD 任务期间的视线 (LoS) 锥体约束、推力限制、推力方向限制和接近速度约束。为了加强这些约束，采用了时移调节器（TSG），它使用时移的主航天器轨迹作为副航天器的目标参考。将时移逐渐减小到零，使得虚拟目标随着时间的推移逐渐向Chief飞船演化，从而实现RVD任务目标。报告数值模拟结果以验证所提出的控制方法。

GuideLight：更实用的交通信号控制代理的“工业解决方案”指南

分类： 多代理系统, 人工智能, 机器学习

作者： Haoyuan Jiang, Xuantang Xiong, Ziyue Li, Hangyu Mao, Guanghu Sui, Jingqing Ruan, Yuheng Cheng, Hua Wei, Wolfgang Ketter, Rui Zhao

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10811v1

摘要： 目前，基于强化学习（RL）的交通信号控制（TSC）方法已被证明优于传统方法。然而，由于输入、输出和循环流关系三个因素，大多数强化学习方法在现实世界中应用时都面临困难。行业的可观察输入比基于模拟的强化学习方法要有限得多。对于现实世界的解决方案，只有流量才能可靠地收集，而常见的 RL 方法需要更多。对于输出动作，大多数 RL 方法侧重于非循环控制，而现实世界的信号控制器不支持这种控制。最重要的是，行业标准要求一致的循环流量关系：针对低、中、高流量的非递减且不同的响应策略，这是 RL 方法所忽略的。为了缩小 RL 方法与行业标准之间的差距，我们创新性地提出使用行业解决方案来指导 RL 智能体。具体来说，我们设计了行为克隆和课程学习来引导智能体模仿并满足行业要求，同时利用强化学习中探索和利用的力量来获得更好的性能。我们从理论上证明，在搜索最优策略时，这种指导可以很大程度上降低范围内多项式的样本复杂性。我们的严格实验表明，我们的方法具有良好的循环流关系和优越的性能。

多机器人网络中通信和计算高效的分布式决策

分类： 机器人技术, 人工智能, 多代理系统, 系统与控制, 系统与控制, 优化与控制

作者： Zirui Xu, Sandilya Sai Garimella, Vasileios Tzoumas

发布时间： 2024-07-15

链接： http://arxiv.org/abs/2407.10382v1

摘要： 我们提供了一种分布式协调范例，可以在多个机器人之间实现可扩展且接近最佳的关节运动规划。我们的协调范式与当前的范式形成鲜明对比，当前的范式要么接近最优，但对于重新规划时间或实时不切实际，但不提供接近最优的保证。我们对协作移动自主的未来充满动力，分布式机器人团队将通过车对车 (v2v) 通信进行协调，以执行地图绘制、监视和目标跟踪等信息量大的任务。为了实现快速的分布式协调，我们必须限制网络上信息共享的爆炸式增长，从而限制机器人的协调。然而，这可能会导致计划不理想，导致轨迹重叠而不是互补。我们做出理论和算法贡献来平衡决策速度和最优性之间的权衡。我们引入了分布式子模块优化工具，这是信息收集任务中的收益递减特性。从理论上讲，我们分析本地网络拓扑如何影响全局级别的接近最优性。在算法上，我们为代理提供了一种通信和计算高效的协调算法来平衡权衡。我们的算法比接近最优的竞争算法快两个数量级。在模拟多达 45 个机器人的监控任务时，它可以实现 1 Hz 量级的实时规划，并具有卓越的覆盖性能。为了实现模拟，我们提供了一个高保真模拟器，通过集成协作自治管道和模拟 v2v 通信延迟来扩展 AirSim。

本体驱动的强化学习提供个性化的学生支持

分类： 计算机与社会, 机器学习, 多代理系统

作者： Ryan Hare, Ying Tang

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10332v1

摘要： 在寻求更有效的教育的过程中，人们广泛努力开发更好的方法来个性化学生教育。在没有帮助的情况下，教育工作者通常没有时间或资源来亲自支持特定教室中的每个学生。受此问题以及人工智能最新进展的推动，本文提出了一种用于个性化学生支持的通用框架，适用于任何虚拟教育系统，例如严肃游戏或智能辅导系统。为了适应任何教育情况，我们将本体论应用于语义组织，并将其与数据收集考虑和多智能体强化学习相结合。结果是一个模块化系统，可以适应任何虚拟教育软件，为学生提供有用的个性化帮助。

AlphaDou：高性能端到端斗地主AI融合竞价

分类： 人工智能, 计算机科学与博弈论, 多代理系统

作者： Chang Lei, Huan Lei

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10279v1

摘要： 纸牌游戏的人工智能长期以来一直是人工智能研究的热门话题。近年来，麻将、德州扑克等复杂纸牌游戏已经得到解决，相应的人工智能程序也达到了人类专家的水平。然而，斗地主博弈由于其庞大的状态/动作空间以及涉及竞争与合作的推理的独特特性，带来了巨大的挑战，使得博弈的求解极其困难。使用深度蒙特卡罗算法框架训练的强化学习模型斗零，在《斗地主》中展现了出色的表现。但其简化的游戏环境与实际的斗地主环境存在差异，其性能与人类高手仍有相当的距离。本文利用强化学习对深度蒙特卡罗算法框架进行修改，获得同时估计胜率和期望的神经网络。行动空间是根据期望来修剪的，策略是根据胜率生成的。该强化学习模型在真实的斗地主环境中进行训练，在公开模型中达到了最先进的水平。

学习在模型不确定性下引导马尔可夫智能体

分类： 机器学习, 人工智能, 多代理系统, 机器学习

作者： Jiawei Huang, Vinzenz Thoma, Zebang Shen, Heinrich H. Nax, Niao He

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10207v1

摘要： 为适应人群设计激励措施是广泛的经济应用及其他领域中普遍存在的问题。在这项工作中，我们研究如何设计额外的奖励来引导多智能体系统实现所需的策略，\emph{无需}事先了解智能体的潜在学习动态。我们针对转向问题引入了一种基于模型的非情景强化学习 (RL) 公式。重要的是，我们专注于学习\emph{依赖于历史}的转向策略来处理代理学习动态的固有模型不确定性。我们引入了一种新颖的目标函数来编码以合理的成本实现良好转向结果的需求。从理论上讲，我们确定了指导策略存在的条件，以指导代理执行所需的策略。作为对我们理论贡献的补充，我们提供了经验算法来近似解决我们的目标，这有效地解决了学习历史相关策略的挑战。我们通过实证评估证明了我们算法的有效性。

使用基于大语言模型的代理彻底改变桥梁运营和维护：应用程序和见解概述

分类： 多代理系统

作者： Xinyu-Chen, Yanwen-Zhu, Yang-Hou, Lianzhen-Zhang

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10064v1

摘要： 在人类社会发展的各个产业领域，人们一直在探索旨在解放人类劳动力的方法。构建基于LLM的代理被认为是实现这一目标的最有效的工具之一。 Agent作为一种具有感知、规划、决策、行动能力的类人智能实体，在许多领域创造了巨大的生产价值。但与其他行业相比，桥梁运维领域的智能化水平较低。尽管如此，桥梁运维领域已经开发出众多智能检测设备、机器学习算法、自主评估决策方法，为该领域人工智能的突破提供了可行的基础。本研究的目的是探讨基于大规模语言模型的人工智能体对桥梁运维领域的影响，并分析其给桥梁运维核心任务带来的潜在挑战和机遇。通过深入的研究和分析，本文期望为理解知识分子在这一领域的应用提供更全面的视角。

部分可观测环境中多智能体机器人的长期规划

分类： 机器人技术, 多代理系统

作者： Siddharth Nayak, Adelmo Morrison Orozco, Marina Ten Have, Vittal Thirumalai, Jackson Zhang, Darren Chen, Aditya Kapoor, Eric Robinson, Karthik Gopalakrishnan, James Harrison, Brian Ichter, Anuj Mahajan, Hamsa Balakrishnan

发布时间： 2024-07-14

链接： http://arxiv.org/abs/2407.10031v1

摘要： 语言模型 (LM) 理解自然语言的能力使其成为将人类指令解析为自主机器人任务计划的强大工具。与依赖于特定领域知识和手工规则的传统规划方法不同，语言模型从不同的数据中进行概括，并以最小的调整适应各种任务，充当压缩的知识库。然而，标准形式的语言模型面临着长期任务的挑战，特别是在部分可观察的多智能体环境中。我们提出了一种基于 LM 的多智能体机器人长视野规划器 (LLaMAR)，这是一种用于规划的认知架构，可在部分可观察环境中的长视野任务中实现最先进的结果。 LLaMAR 采用计划-行动-正确-验证框架，允许根据行动执行反馈进行自我纠正，而无需依赖预言机或模拟器。此外，我们还推出了 MAP-THOR，这是一个综合测试套件，涵盖 AI2-THOR 环境中不同复杂程度的家庭任务。实验表明，与其他最先进的基于 LM 的多智能体规划器相比，LLaMAR 的成功率提高了 30%。

AtomAgents：通过物理感知的多模式多代理人工智能进行合金设计和发现

分类： 人工智能, 介观和纳米物理, 材料科学, 统计力学, 多代理系统

作者： Alireza Ghafarollahi, Markus J. Buehler

发布时间： 2024-07-13

链接： http://arxiv.org/abs/2407.10022v1

摘要： 合金设计是一个多尺度问题，需要采用整体方法，包括检索相关知识、应用先进的计算方法、进行实验验证和分析结果，这一过程通常由人类专家保留。机器学习 (ML) 可以帮助加速这一过程，例如，通过使用深度代理模型将结构特征与材料属性联系起来，反之亦然。然而，现有的数据驱动模型通常针对特定的物质目标，在整合域外知识方面提供的灵活性有限，并且无法适应新的、不可预见的挑战。在这里，我们通过利用多个人工智能代理的独特功能来克服这些限制，这些人工智能代理在动态环境中自主协作来解决复杂的材料设计任务。所提出的物理感知生成人工智能平台 AtomAgents 协同大语言模型（LLM）的智能，即具有各个领域专业知识的人工智能代理之间的动态协作，包括知识检索、多模态数据集成、基于物理的模拟和综合跨模式的结果分析，包括物理模拟结果的数值数据和图像。多智能体系统的共同努力可以解决复杂的材料设计问题，例如自主设计的金属合金与纯合金相比具有增强的性能。我们的结果能够准确预测合金的关键特性，并强调固溶合金化在引导先进金属合金发展方面的关键作用。我们的框架提高了复杂的多目标设计任务的效率，并在生物医学材料工程、可再生能源和环境可持续性等领域开辟了新的途径。

用于多智能体系统的基于模型的 RL 的 GNN

分类： 多代理系统, 人工智能

作者： Hanxiao Chen

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09249v1

摘要： 多代理系统（MAS）在探索机器智能和高级应用程序中发挥着重要作用。为了深入研究 MAS 场景中复杂的交互，我们最初提出了“GNN for MBRL”模型，该模型利用状态空间图神经网络和基于模型的强化学习来解决特定的 MAS 任务（例如，台球回避、自动驾驶）汽车）。具体来说，我们首先使用 GNN 模型来预测多个智能体的未来状态和轨迹，然后应用交叉熵方法（CEM）优化模型预测控制来辅助自我智能体规划行动并成功完成某些 MAS 任务。

使用集群同步激光网络的分散式多智能体强化学习算法

分类： 机器学习, 多代理系统, 混沌动力学, 光学

作者： Shun Kotoku, Takatomo Mihana, André Röhm, Ryoichi Horisaki

发布时间： 2024-07-12

链接： http://arxiv.org/abs/2407.09124v1

摘要： 多智能体强化学习 (MARL) 研究适用于各种领域的关键原理，包括无线网络和自动驾驶。我们提出了一种基于光子的决策算法来解决 MARL 中最基本的问题之一，即竞争性多臂老虎机 (CMAB) 问题。我们的数值模拟表明，光耦合激光器的混沌振荡和簇同步，以及我们提出的分散耦合调整，可以有效地平衡探索和开发，同时促进合作决策，而无需在代理之间明确共享信息。我们的研究展示了如何通过利用简单算法控制的复杂物理过程来实现去中心化强化学习。

强化学习研究的九个物理引擎综述

分类： 人工智能, 机器学习, 多代理系统, I.2.0

作者： Michael Kaup, Cornelius Wolff, Hyerim Hwang, Julius Mayer, Elia Bruni

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08590v1

摘要： 我们对强化学习 (RL) 研究中使用的流行模拟引擎和框架进行了回顾，旨在指导研究人员选择为 RL 和训练设置创建模拟物理环境的工具。它根据九个框架（Brax、Chrono、Gazebo、MuJoCo、ODE、PhysX、PyBullet、Webots 和 Unity）的受欢迎程度、功能范围、质量、可用性和 RL 功能对其进行评估。我们强调了为强化学习研究选择和利用物理引擎所面临的挑战，包括需要进行详细比较和了解每个框架的功能。主要调查结果表明，尽管存在可用性挑战，MuJoCo 仍因其性能和灵活性而成为领先框架。 Unity 以其易用性而闻名，但缺乏可扩展性和模拟保真度。该研究呼吁进一步开发以提高模拟引擎的可用性和性能，并强调强化学习研究中透明度和可重复性的重要性。这篇评论通过提供对模拟引擎选择过程的见解，促进明智的决策，为 RL 社区做出了贡献。

将大型语言模型合并到生产系统中以增强任务自动化和灵活性

分类： 人工智能, 新兴技术, 多代理系统, 机器人技术, 系统与控制, 系统与控制

作者： Yuchen Xia, Jize Zhang, Nasser Jazdi, Michael Weyrich

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08550v1

摘要： 本文介绍了一种将大语言模型（LLM）代理集成到自动化生产系统中的新方法，旨在增强任务自动化和灵活性。我们在基于自动化金字塔的分层框架内组织生产运营。原子操作功能被建模为微服务，通过专用数字孪生系统内的接口调用来执行。这为编排生产流程提供了可扩展且灵活的基础。在这个数字孪生系统中，低级硬件特定数据在语义上得到丰富，并可供大语言模型解释以执行生产计划和控制任务。系统地提示大型语言模型代理解释这些特定于生产的数据和知识。在收到用户请求或识别触发事件后，LLM 代理会生成流程计划。然后，该计划被分解为一系列原子操作，在现实世界的自动化系统中作为微服务执行。我们在实验室的自动化模块化生产设施上实施了这种整体方法，通过具体案例研究展示了大语言模型如何处理生产计划和控制任务。这导致直观的生产设施具有更高水平的任务自动化和灵活性。最后，我们揭示了在自治系统中充分发挥大型语言模型潜力的一些局限性，并指出了有希望的好处。该系列正在进行的研究系列的演示可以访问：https://github.com/YuchenXia/GPT4IndustrialAutomation

我们团结一致：去中心化多代理规划与消耗

分类： 多代理系统, 人工智能

作者： Nhat Nguyen, Duong Nguyen, Gianluca Rizzo, Hung Nguyen

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08254v1

摘要： 分散规划是用于信息收集任务的协作多智能体系统的关键要素。然而，尽管在现实的大型部署场景中代理故障的频率很高，但当前的方法在存在故障的情况下表现不佳，根本不收敛，和/或资源（例如能源）的使用效率非常低。在这项工作中，我们提出了 Attritable MCTS（A-MCTS），这是一种去中心化的 MCTS 算法，能够及时有效地适应活动代理集的变化。它基于使用全局奖励函数来估计每个智能体的局部贡献，并使用遗憾匹配来进行协调。我们评估其在不同场景下的实际数据收集问题中的有效性。我们从理论上和实验上证明，即使在高故障率下，A-MCTS 也能实现有效的适应。结果表明，在频繁出现故障的情况下，我们的解决方案在全局实用性和可扩展性方面比现有最佳方法有了显着改进。

基于 UGC 的角色扮演游戏的文本到游戏引擎

分类： 人工智能, 计算和语言, 多代理系统

作者： Lei Zhang, Xuezheng Peng, Shuyi Yang, Feiyang Wang

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08195v1

摘要： 从专业生成内容 (PGC) 到用户生成内容 (UGC) 的转变彻底改变了从文本到视频的各种媒体格式。随着生成式人工智能的快速发展，类似的转变也将改变游戏行业，特别是在角色扮演游戏 (RPG) 领域。本文介绍了一种新的文本转游戏引擎框架，该框架利用基础模型将简单的文本输入转换为复杂的交互式 RPG 体验。该引擎以多模式格式动态渲染游戏故事，并根据玩家动作实时调整游戏角色、环境和机制。利用该框架，我们开发了“Zagii”游戏引擎，该引擎已成功支持数百款不同类型的RPG游戏，并为数以万计的在线用户游戏实例提供了便利。这验证了我们框架的有效性。我们的工作展示了更加开放和民主化的游戏范式的潜力，强调了生成式人工智能对游戏生命周期的变革性影响。

基于分层共识的多智能体强化学习，用于多机器人合作任务

分类： 人工智能, 多代理系统, 机器人技术

作者： Pu Feng, Junkang Liang, Size Wang, Xin Yu, Rongye Shi, Wenjun Wu

发布时间： 2024-07-11

链接： http://arxiv.org/abs/2407.08164v1

摘要： 在多智能体强化学习（MARL）中，集中训练与分散执行（CTDE）框架至关重要，但由于存在差距而举步维艰：训练中的全球国家指导与执行中依赖本地观察、缺乏全球信号。受人类社会共识机制的启发，我们引入了基于分层共识的多智能体强化学习（HC-MARL）框架来解决这一限制。 HC-MARL 采用对比学习来促进代理之间的全球共识，从而无需直接沟通即可实现合作行为。这种方法使代理能够根据本地观察形成全球共识，将其用作指导执行过程中协作行动的附加信息。为了满足各种任务的动态要求，共识分为多个层次，涵盖短期和长期考虑。短期观察有助于形成即时的、低层的共识，而长期观察则有助于形成战略性的、高层的共识。这个过程通过自适应注意力机制进一步完善，该机制动态调整每个共识层的影响。这种机制优化了即时反应和战略规划之间的平衡，并根据当前任务的具体要求进行调整。多机器人系统中的广泛实验和实际应用展示了我们的框架的卓越性能，标志着相对于基线的显着进步。

基于多智能体强化学习的可变限速控制器的现场部署

分类： 多代理系统

作者： Yuhang Zhang, Zhiyao Zhang, Marcos Quiñones-Grueiro, William Barbour, Clay Weston, Gautam Biswas, Daniel Work

发布时间： 2024-07-10

链接： http://arxiv.org/abs/2407.08021v1

摘要： 本文介绍了在田纳西州纳什维尔附近的 I-24 高速公路上首次现场部署基于多智能体强化学习 (MARL) 的可变限速 (VSL) 控制系统。我们描述了如何在交通模拟器中训练 MARL 代理，并直接在 24 号州际公路 17 英里的延伸段上部署 67 个 VSL 控制器基于模拟的策略。我们使用无效动作屏蔽和多个安全防护装置来确保张贴的速度限制满足交通管理中心和田纳西州交通部的现实限制。自该系统启动以来到 2024 年 4 月，该系统已对 8,000,000 次行程做出了约 10,000,000 项决策。控制器的分析表明，MARL 策略在高达 98% 的时间内进行控制，无需安全防护人员干预。交通速度和控制命令的时空图说明了算法在高峰时段的行为方式。最后，我们量化模拟和真实数据之间的领域不匹配，并证明 MARL 政策对这种不匹配的鲁棒性。

将网络空间与物理世界结合起来：对嵌入式人工智能的全面调查

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 多代理系统, 机器人技术

作者： Yang Liu, Weixing Chen, Yongjie Bai, Guanbin Li, Wen Gao, Liang Lin

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06886v5

摘要： 嵌入式人工智能（Embodied AI）对于实现通用人工智能（AGI）至关重要，并且是连接网络空间和物理世界的各种应用的基础。最近，多模态大型模型（MLM）和世界模型（WM）的出现因其卓越的感知、交互和推理能力而引起了极大的关注，使它们成为具身智能体大脑的有前途的架构。然而，目前还没有针对传销时代的嵌入式人工智能的全面调查。在本次调查中，我们全面探讨了嵌入式人工智能的最新进展。我们的分析首先浏览了具身机器人和模拟器的代表作品的前沿，以充分了解研究重点及其局限性。然后，我们分析了四个主要研究目标：1）具身感知，2）具身互动，3）具身主体，4）模拟到真实的适应，涵盖了最先进的方法、基本范式和综合性。数据集。此外，我们还探讨了虚拟和真实实体代理中传销的复杂性，强调了它们在促进动态数字和物理环境中的交互方面的重要性。最后，我们总结了嵌入式人工智能的挑战和局限性，并讨论了它们潜在的未来方向。我们希望这项调查能够为研究界提供基础参考，并激发持续创新。相关项目可以在 https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List 找到。

Richelieu：自我进化的大语言模型人工智能外交代理人

分类： 人工智能, 多代理系统, 社交和信息网络

作者： Zhenyu Guan, Xiangyu Kong, Fangwei Zhong, Yizhou Wang

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06813v1

摘要： 外交是人类社会最复杂的活动之一。多方/代理人之间复杂的互动涉及社会推理、谈判艺术和长期战略规划等多种能力。以前的人工智能代理无疑已经证明了它们在涉及多个代理的任务中处理多步骤游戏和更大动作空间的能力。然而，外交涉及巨大的决策空间，特别是考虑到所需的谈判阶段。最近，LLM 代理在一些应用程序上显示了扩展先前代理边界的潜力，但是，它仍然不足以在复杂的多代理环境中处理很长的规划周期。凭借尖端的 LLM 技术，我们首次尝试通过结合三种核心和基本功能来构建更强大的基于 LLM 的社会智能体，从而探索人工智能对类人智能体的上限，以执行如此高度综合的多智能体任务：1)具有记忆力和反思能力的战略规划者； 2）以目标为导向的社会推理谈判； 3）通过自我玩游戏来增强记忆，从而在没有任何人类参与的情况下自我进化。

使用信任在恶意攻击下对有向图进行快速分布式优化

分类： 系统与控制, 多代理系统, 机器人技术, 系统与控制, 优化与控制

作者： Arif Kerem Dayı, Orhan Eren Akgün, Stephanie Gil, Michal Yemini, Angelia Nedić

发布时间： 2024-07-09

链接： http://arxiv.org/abs/2407.06541v1

摘要： 在这项工作中，我们介绍了弹性投影推拉（RP3）算法，该算法专为具有定向通信图和存在恶意代理的多代理网络物理系统中的分布式优化而设计。我们的算法利用随机代理间信任值和梯度跟踪，即使在对抗环境中也能达到预期的几何收敛率。我们引入不断增长的约束集来限制恶意代理的影响，而不影响算法的几何收敛速度。我们证明，只要步长足够小并且适当选择约束集，RP3 几乎肯定会收敛到名义最优解，并且对于任何 $r\geq 1$ 来说，收敛到第 $r$ 均值。我们通过对平均共识和多机器人目标跟踪问题的数值研究来验证我们的方法，证明 RP3 有效减轻了恶意代理的影响并实现了所需的几何收敛。

通过 Petri 网元模型的属性继承分析机器人系统模型

分类： 机器人技术, 多代理系统

作者： Maksym Figat, Cezary Zieliński

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06454v2

摘要： 本文研究了使用机器人系统分层 Petri 网 (RSHPN) 元模型对机器人系统模型的分析，通过关注重要的系统片段并继承元模型的属性，提出了简化的方法。我们的研究表明：1）有效分析使用 RSHPN 表达的复杂机器人系统，2）使模型能够继承元模型的属性。这种方法显着简化了分析过程，减少了设计时间，并确保了系统的安全性和可靠性。这些方面对于在人类环境中运行的机器人至关重要。我们的结果表明，可以进一步探索 Petri 网作为正式描述和深入分析机器人系统特性的有用工具。

DebUnc：通过不确定性估计减轻大语言模型代理通信中的幻觉

分类： 计算和语言, 人工智能, 多代理系统

作者： Luke Yoffe, Alfonso Amayuelas, William Yang Wang

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06426v1

摘要： 为了增强大型语言模型 (LLM) 的能力，引入了多智能体辩论，多个 LLM 在多轮辩论中讨论问题的解决方案。然而，大语言模型经常会做出不正确的回答，看起来很自信，这可能会误导其他代理人。部分原因是代理人在标准辩论中不会表达他们的信心水平。为了解决这个问题，我们引入了 DebUnc，一个多智能体辩论框架，它使用不确定性指标来评估智能体的置信水平。我们采用了 LLM 注意力机制来根据置信度调整令牌权重，并探索使用文本提示来传达置信度。我们对各种基准的评估表明，基于注意力的方法特别有效，并且随着不确定性指标的发展，性能将继续提高。代码可在 https://github.com/lukeyoffe/debunc 获取

多吨位存储和检索自主移动机器人系统中多行订单的建模和分析

分类： 机器人技术, 多代理系统

作者： Xiaotao Shan, Yichao Jin, Peizheng Li, Koichi Kondo

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06394v1

摘要： 随着仓库越来越重视空间利用率和处理多行订单的能力，多周转箱存储和检索 (MTSR) 自主移动机器人系统（机器人直接从高架上检索周转箱）变得越来越受欢迎。本文提出了一种新颖的共享令牌、多类、半开放排队网络模型，用于解释 MTSR 系统中具有一般分布形式的多线订单。通过求解 SOQN 模型获得的数值结果经过离散事件仿真的验证，大多数关键性能指标都显示出较高的准确性。在我们的实验设置中，结果表明，与随机策略相比，使用最近检索序列策略满足特定订单到达率所需的最小机器人数量减少了 12.5%。增加机器人上的周转箱缓冲区位置的数量可以大大减少仓库中所需的机器人数量。

人口博弈中具有估计收益的学习均衡

分类： 多代理系统, 系统与控制, 系统与控制

作者： Shinkyu Park

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06328v1

摘要： 我们研究了人口博弈中的多智能体决策问题，其中智能体从多种可用策略中进行选择，并根据与这些策略相关的收益不断修改他们的选择。与传统的人口博弈公式不同，我们考虑这样一种情况：智能体必须通过本地测量和与邻居的通信来估计收益。通过采用任务分配博弈（传统群体博弈的动态扩展），我们研究了个体代理的收益估计错误如何影响策略修正过程的收敛。我们的主要贡献是分析估计误差如何影响代理策略配置向均衡的收敛。根据分析结果，我们提出了一种时变策略修正率的设计，以保证收敛。模拟研究说明了所提出的更新修正率的方法如何促进收敛到平衡。

GPS 拒绝的多机器人覆盖的面向锚点的局部 Voronoi 分区

分类： 机器人技术, 多代理系统

作者： Aiman Munir, Ehsan Latif, Ramviyas Parasuraman

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.06296v1

摘要： 多机器人覆盖在许多应用中至关重要，包括环境监测、搜索和救援行动以及精准农业。在现代应用中，多机器人团队必须在全球定位不可用的 GPS 拒绝和极端环境中协作探索未知的空间领域。覆盖算法通常假设机器人位置和覆盖环境是在全局参考系中定义的。然而，在没有全局定位的情况下协调机器人运动并确保共享凸工作空间的覆盖是具有挑战性的。本文提出了一种新颖的面向锚点的覆盖（AOC）方法，用于基于公共锚点位置生成动态局部 Voronoi 分区。我们进一步提出了一种基于共识的协调算法，该算法在机器人相对参考系中锚点周围的覆盖工作空间上达成一致。通过大量的模拟和真实世界的实验，我们证明了所提出的使用局部 Voronoi 分区的锚导向方法的性能与使用 GPS 的最先进的覆盖控制器一样。

拟线性系统的齐次分布式观测器

分类： 优化与控制, 多代理系统, 系统与控制, 系统与控制

作者： Min Li, Andrey Polyakov, Siyuan Wang, Gang Zheng

发布时间： 2024-07-08

链接： http://arxiv.org/abs/2407.05763v1

摘要： 针对一类满足H"旧条件的非线性拟线性系统，考虑有限/固定时间协作状态估计问题。在全局可观性假设下，设计了强连通的非线性分布式观测器。通过线性参数的适当整定，矩阵不等式，观察者误差方程在无扰动情况下具有有限/固定时间稳定性，并且在有界扰动方面具有输入状态稳定性。进行数值模拟来验证该设计。

公平货币——业力经济的公共良好价值定价

分类： 多代理系统, 理论经济学

作者： Kevin Riehl, Anastasios Kouvelas, Michail Makridis

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.05132v1

摘要： 城市道路基础设施是公共产品，利己理性的个人过度消费会导致交通拥堵。拥堵收费可以有效地将需求减少到可持续水平，但也存在争议，因为它引入了公平问题并系统性地歧视低收入群体。业力是一种非货币、公平、高效的资源配置机制，它采用不同于货币的人工货币，激励自私个体之间的合作，实现给予与索取的平衡。在金钱不起作用的地方，业力通过与消费者的需求而不是他们的财务实力保持一致来实现社会上更理想的资源分配。这项工作强调了 Karma 的价值主张，为重要的 Karma 机制设计元素提供了指导，并为读者提供了一个有用的软件框架来建模 Karma 经济并预测消费者的行为。案例研究证明了这种可行的货币替代方案的潜力，且无需承担额外费用。

部分可观察环境的多智能体离策略演员-批评家强化学习

分类： 机器学习, 多代理系统

作者： Ainur Zhaikhan, Ali H. Sayed

发布时间： 2024-07-06

链接： http://arxiv.org/abs/2407.04974v1

摘要： 本研究提出使用社会学习方法来估计多智能体离策略行动者批评算法中的全局状态，以在部分可观察的环境中运行强化学习（RL）。我们假设代理网络以完全去中心化的方式运行，具有与其直接邻居交换变量的能力。所提出的设计方法得到了一项分析的支持，该分析表明，当充分观察全局状态与通过社会学习方法估计全局状态时获得的最终结果之间的差异在适当数量的社会学习更新迭代时是 $\varepsilon$ 有界的已实施。与许多现有的基于 dec-POMDP 的 RL 方法不同，该算法适用于无模型多智能体强化学习，因为它不需要转换模型的知识。此外，实验结果说明了该算法的有效性，并证明了其相对于当前最先进方法的优越性。

通过预测其他学习者的行为来最大化多代理环境中的效用

分类： 计算机科学与博弈论, 机器学习, 多代理系统

作者： Angelos Assos, Yuval Dagan, Constantinos Daskalakis

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04889v1

摘要： 学习算法通常用于在顺序决策环境中做出决策。在多代理设置中，每个代理的决策都会影响其他代理的效用/损失。因此，如果一个智能体善于预测其他智能体的行为，特别是他们将如何根据迄今为止的经验在每一轮中做出决策，那么它可以尝试在交互的各轮中明智地做出自己的决策从而影响其他智能体以最终有利于其自身效用的方式行事。在本文中，我们研究了涉及两种类型代理的重复两人游戏：学习者，采用在线学习算法在每轮中选择其策略；和一个优化器，它知道学习器的效用函数和学习器的在线学习算法。优化器希望提前计划以最大化其自身效用，同时考虑学习者的行为。我们提供两个结果：重复的零和博弈的正结果和重复的一般和博弈的负结果。我们的积极结果是优化器的算法，它针对使用复制器动力学（乘法权重更新（MWU）的连续时间模拟）的学习器，准确地最大化了其效用。此外，我们使用这个结果为优化器提供了一种针对 MWU 的算法，即离散时间设置的算法，这保证了优化器的平均效用高于一次性游戏的值。我们的负面结果表明，除非 P=NP，否则不存在完全多项式时间近似方案（FPTAS）来最大化优化器针对每轮历史记录最佳响应的学习器的效用。然而，这仍然留下了一个悬而未决的问题：是否存在将效用优化到 $o(T)$ 的多项式时间算法。

带有噪声测量的传感器网络定位的多人潜力博弈方法

分类： 优化与控制, 计算机科学与博弈论, 多代理系统

作者： Gehui Xu, Guanpu Chen, Baris Fidan, Yiguang Hong, Hongsheng Qi, Thomas Parisini, Karl H. Johansson

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04608v1

摘要： 传感器网络定位（SNL）由于其固有的非凸性以及节点间测距测量和锚节点位置中的噪声影响，是一个具有挑战性的问题。我们将非凸 SNL 问题表述为多人非凸潜在博弈，并研究纳什均衡 (NE) 在没有测量噪声的理想设置和有测量噪声的实际设置中的存在性和唯一性。我们首先证明NE在无噪声情况下存在且唯一，并且对应于精确的网络定位。然后，我们研究了影响锚节点位置和节点间距离测量的误差情况下的 SNL。具体来说，我们确定，如果这些误差足够小，则 NE 存在并且是唯一的。结果表明，NE是SNL问题的近似解，并且可以相应地量化位置误差。基于这些发现，我们将结果应用于仅涉及节点间距离测量误差和仅锚点位置信息不准确的案例研究。

当大语言模型玩电话游戏时：文化迭代传播中的累积变化和吸引因素

分类： 物理与社会, 人工智能, 多代理系统, 68T50, I.2.7

作者： Jérémy Perez, Corentin Léger, Grgur Kovač, Cédric Colas, Gaia Molinaro, Maxime Derex, Pierre-Yves Oudeyer, Clément Moulin-Frier

发布时间： 2024-07-05

链接： http://arxiv.org/abs/2407.04503v1

摘要： 随着大型语言模型 (LLM) 开始相互交互并在线生成越来越多的文本，更好地了解信息从一个 LLM 传递到下一个 LLM 时如何转换变得至关重要。虽然重要的研究考察了大语言模型的个人行为，但现有的研究在很大程度上忽视了大语言模型反复互动所产生的集体行为和信息扭曲。在单一输出水平上可以忽略不计的小偏差，有在迭代交互中被放大的风险，可能导致内容向吸引子状态演化。在一系列电话游戏实验中，我们应用了借鉴人类文化进化文献的传输链设计：LLM 代理迭代地从链中的前一个代理到下一个代理接收、生成和传输文本。通过跟踪传输链中文本毒性、积极性、难度和长度的演变，我们揭示了偏见和吸引子的存在，并研究它们对初始文本、指令、语言模型和模型大小的依赖性。例如，我们发现与更多受限任务相比，更多开放式指令会产生更强的吸引力效应。我们还发现不同的文本属性对吸引效应表现出不同的敏感性，毒性导致比长度更强的吸引子。这些发现强调了考虑多步传播动态的重要性，并代表了更全面地理解大语言模型文化动态的第一步。

使用约束引导多代理系统解决斑马谜题

分类： 多代理系统, 计算和语言, 68T01, 68T20, 68T27,, I.2.3; I.2.6; I.2.7; I.2.11

作者： Shmuel Berman, Kathleen McKeown, Baishakhi Ray

发布时间： 2024-07-04

链接： http://arxiv.org/abs/2407.03956v2

摘要： 先前的研究已经增强了大型语言模型（LLM）使用思想链提示或引入符号表示等技术解决逻辑难题的能力。由于将自然语言线索转化为逻辑语句的固有复杂性，这些框架通常仍然不足以解决复杂的逻辑问题，例如斑马谜题。我们引入了一个多代理系统 ZPS，它将大语言模型与现成的定理证明器集成在一起。该系统通过将问题分解为更小的、可管理的部分，生成 SMT（可满足性模理论）代码来通过定理证明者解决它们，并使用代理之间的反馈来反复改进他们的答案，从而解决复杂的解谜任务。我们还引入了自动网格拼图评分器来评估我们的拼图解决方案的正确性，并通过在用户研究中对其进行评估来表明自动评分器是可靠的。我们的方法显示了我们测试的所有三个 LLM 的改进，其中 GPT-4 显示完全正确的解决方案数量提高了 166%。

用于大规模分层总体合成的多目标组合优化框架

分类： 多代理系统, 人工智能

作者： Imran Mahmood, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge, Ioannis Zachos

发布时间： 2024-07-03

链接： http://arxiv.org/abs/2407.03180v1

摘要： 在基于代理的模拟中，代理的合成群体通常用于表示个体的结构、行为和交互。然而，生成准确反映真实人口统计数据的合成人口是一项具有挑战性的任务，特别是在大规模执行时。在本文中，我们提出了一种用于大规模群体合成的多目标组合优化技术。我们通过为选定区域生成合成人口并在真实人口数据的列联表上进行验证来证明我们方法的有效性。我们的方法支持个人和家庭之间复杂的层次结构，可扩展到大量人口，并实现最小的列联表重建误差。因此，它为政策制定者和研究人员模拟复杂人口的动态提供了有用的工具。

使用元胞自动机的野火自主响应和预测 (WARP-CA)

分类： 人工智能, 多代理系统, 神经和进化计算, 机器人技术

作者： Abdelrahman Ramadan

发布时间： 2024-07-02

链接： http://arxiv.org/abs/2407.02613v1

摘要： 野火对生态系统和人类住区构成严峻挑战，气候变化和环境因素加剧了这一挑战。传统的野火模型虽然有用，但往往无法适应此类事件的快速动态。本报告介绍了（使用元胞自动机进行野火自主响应和预测）WARP-CA 模型，这是一种新颖的方法，它将使用 Perlin 噪声的地形生成与元胞自动机 (CA) 的动态性相结合来模拟野火蔓延。我们通过在协作框架内模拟无人机和无人地面车辆等自主代理，探索多代理强化学习 (MARL) 管理野火的潜力。我们的方法结合了世界模拟技术并研究 MARL 中的紧急行为，重点关注有效的野火扑灭并考虑风型和地形特征等关键环境因素。

网络规模和信息接收频率对社交网络极化的影响

分类： 多代理系统, 物理与社会

作者： Sudhakar Krisharao, Shaja Arul Selvamani

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01788v1

摘要： 意见动态是一个跨学科的研究领域。心理学和社会学提出了个人如何形成意见以及社会互动如何影响这一过程的模型。社会物理学家将意见形成的模式解释为由潜在过程中的非线性产生的，从而塑造了模型。基于代理的建模提供了一个研究大型群体意见动态的平台。本文将最新的意见形成模型重新构建为适当的动态系统，将时钟时间的概念注入不断发展的意见中。连续接收新信息之间的时间间隔（信息接收频率）成为一个需要研究的因素。社交媒体缩短了信息接收之间的时间间隔，增加了信息接收的频率。重新构建的模型表明，更短的时间间隔和更大的网络会增加个人的两极分化倾向，即无法持有中立意见。提出了基于社会学参数的极化数，根据心理参数，具有临界值，超过该临界值，个体容易极化。缩短的时间间隔和更大的相互作用基团可以将极化数推至临界值，从而导致极化。极化程度定义为中性周围区域的宽度，在该区域内个人无法持有观点。报告的结果是文献中找到的模型参数。这些发现提供了调整模型参数以与经验证据保持一致的机会，有助于使用基于代理的建模来研究大型社交网络中的意见动态。

行星表面科学分布式仪器：科学机遇和技术可行性

分类： 地球和行星天体物理学, 天体物理学仪器和方法, 多代理系统, 大气和海洋物理, 地球物理学

作者： Federico Rossi, Robert C. Anderson, Saptarshi Bandyopadhyay, Erik Brandon, Ashish Goel, Joshua Vander Hook, Michael Mischna, Michaela Villarreal, Mark Wronkiewicz

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01757v1

摘要： 在本文中，我们评估了行星科学分布式仪器的科学前景和技术可行性。分布式仪器是一种设计用于从多个联网的、地理分布的点传感器收集空间和时间相关数据的仪器。分布式仪器在地球科学中无处不在，通常用于天气和气候科学、地震研究和资源勘探以及工业排放检测。然而，迄今为止，它们在行星表面科学中的应用还很少。人们很自然地会问，这种缺乏采用的情况是否是由于解决行星科学中高度优先问题的潜力较低所致？技术不成熟；或两者。为了解决这个问题，我们调查了特别适合分布式仪器的高优先级行星科学问题。我们确定了分布式仪器有望解开单片传感器基本上无法获得的答案的四个研究领域，即火星的天气和气候研究；岩石和冰体上地震事件的定位；痕量气体排放的定位，主要是在火星上；和内部成分的磁力测量研究。接下来，我们调查分布式传感器的支持技术并评估其成熟度。我们将传感器放置（包括在行星表面的下降和着陆）、电源和仪器自主性确定为需要进一步投资以实现未来分布式仪器的三个关键领域。总体而言，这项工作表明分布式仪器在行星科学方面具有巨大的前景，并为未来太阳系原位科学分布式仪器的后续研究铺平了道路。

可持续觅食问题的时间依赖性在线学习

分类： 多代理系统, 机器学习, 神经和进化计算

作者： John Payne, Aishwaryaprajna, Peter R. Lewis

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01501v1

摘要： 可持续觅食问题是一个动态环境测试平台，用于探索多智能体环境中处理社会困境的智能体认知形式。代理人需要抵制通过觅食获得个人奖励的诱惑，并选择可持续发展的集体长期目标。我们研究了神经进化和深度循环 Q 网络中的在线学习方法，使智能体能够一次性尝试解决棘手的社会问题所需要的问题。我们进一步探讨学习长短期记忆的时间依赖性是否能够帮助智能体制定长期可持续的觅食策略。研究发现，长短期记忆的整合有助于智能体为单个智能体制定可持续策略，但无法帮助智能体管理多智能体场景中出现的社会困境。

利用联合图神经网络多智能体强化学习优化车辆边缘计算中的信息时代

分类： 机器学习, 分布式、并行和集群计算, 多代理系统, 网络和互联网架构

作者： Wenhua Wang, Qiong Wu, Pingyi Fan, Nan Cheng, Wen Chen, Jiangzhou Wang, Khaled B. Letaief

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.02342v1

摘要： 随着智能汽车和智能交通系统（ITS）的快速发展，智能汽车上安装的摄像头、激光雷达等传感器提供了更高的执行计算密集型和延迟敏感任务的能力，从而提高了部署成本。为了解决这个问题，车辆边缘计算（VEC）被提议通过路边单元（RSU）处理数据以支持实时应用程序。本文重点关注信息时代（AoI）作为数据新鲜度的关键指标，并探讨 RSU 通信资源限制下车辆的任务卸载问题。我们采用多智能体深度强化学习（MADRL）方法，允许车辆自主做出最佳的数据卸载决策。然而，MADRL在通信学习和集中训练过程中存在车辆信息泄露的风险。为了缓解这一问题，我们采用联邦学习（FL）框架来共享模型参数而不是原始数据，以保护车辆用户的隐私。在此基础上，我们提出了一种结合图神经网络（GNN）的创新分布式联邦学习框架，称为联邦图神经网络多代理强化学习（FGNN-MADRL），以优化整个系统的 AoI。首次将道路场景构建为图数据结构，并提出了基于GNN的联邦学习框架，有效地将分布式和集中式联邦聚合结合起来。此外，我们提出了一种新的 MADRL 算法，可以简化决策并提高卸载效率，进一步降低决策复杂度。仿真结果通过仿真证明了我们提出的方法相对于其他方法的优越性。

离线合作MARL中的协调失败

分类： 机器学习, 人工智能, 多代理系统

作者： Callum Rhys Tilbury, Claude Formanek, Louise Beyers, Jonathan P. Shock, Arnu Pretorius

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01343v1

摘要： 离线多智能体强化学习（MARL）利用静态经验数据集来学习最佳多智能体控制。然而，从静态数据中学习提出了一些需要克服的独特挑战。在本文中，我们重点关注协调失败，并研究联合行动在具有离线数据的多智能体策略梯度中的作用，重点关注我们称为“数据下最佳响应”（BRUD）方法的常见设置。通过使用两人多项式博弈作为分析工具，我们演示了基于 BRUD 的算法的一种简单但被忽视的故障模式，该模式可能导致离线环境中灾难性的协调失败。基于这些见解，我们提出了一种减轻此类失败的方法，通过在政策学习期间根据联合行动相似性对数据集中的样本进行优先级排序，并在详细实验中证明其有效性。然而，更一般地说，我们认为优先数据集采样是离线 MARL 创新的一个有前途的领域，可以与其他有效方法（例如评论家和政策正则化）相结合。重要的是，我们的工作展示了从简化的、易于处理的游戏中得出的见解如何能够产生有用的、有理论依据的见解，并转移到更复杂的环境中。产品的核心维度是交互式笔记本，几乎所有我们的结果都可以在浏览器中重现。

主动传感策略：具有固定单向切换的现实环境中的多模式、多机器人源定位和映射

分类： 机器人技术, 多代理系统

作者： Vu Phi Tran, Asanka G. Perera, Matthew A. Garratt, Kathryn Kasmarik, Sreenatha G. Anavatti

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01308v1

摘要： 本文介绍了一种针对动态现实世界设置的多模式、多机器人环境传感算法的状态机模型。该算法独特地结合了两种气源定位和绘图勘探策略：（1）初始勘探阶段使用多机器人覆盖路径规划和可变地层进行早期气田指示； (2) 随后的主动传感阶段，采用多机器人群进行精确的现场估计。状态机控制这两个阶段之间的转换。在勘探过程中，覆盖路径会最大化访问区域，同时测量气体浓度并在预定义的采样时间估计初始气体场。在主动传感阶段，群体中的移动机器人协作选择下一个测量点，确保协调和高效的传感。系统验证涉及硬件在环实验和模拟气体场的无线电源的实时测试。该方法以最先进的单模式主动传感和气源定位技术为基准。评估强调了多模态切换方法能够加速收敛、在动态环境中克服障碍并显着提高气源定位精度。研究结果显示，在无碰撞的杂乱场景中，多机器人环境传感的周转时间减少了 43%，估计精度提高了 50%，鲁棒性得到提高，超越了传统主动传感策略的性能。

IBSEN：导演与演员代理协作，实现可控互动戏剧剧本生成

分类： 计算和语言, 人工智能, 多代理系统

作者： Senyu Han, Lu Chen, Li-Min Lin, Zhengshan Xu, Kai Yu

发布时间： 2024-07-01

链接： http://arxiv.org/abs/2407.01093v1

摘要： 大型语言模型已经展示了其在故事情节创作和类人角色扮演方面的能力。目前的语言模型代理主要关注个体层面的合理行为，他们的行为可能很难约束整个故事情节的层面。在本文中，我们介绍了IBSEN，一个导演演员协调代理框架，它可以生成戏剧脚本并使代理扮演的情节更加可控。导演代理编写用户希望看到的情节轮廓，指示演员代理对他们的角色进行角色扮演，并在人类玩家参与场景时重新安排情节，以确保情节朝着目标进展。为了评估该框架，我们创建了一个涉及多个演员代理的新颖戏剧情节，并在导演代理的指导下检查他们之间的互动。评估结果表明，我们的框架可以仅从粗略的情节目标轮廓生成完整、多样化的戏剧剧本，同时保持戏剧中人物的特征。我们的代码和提示可在 https://github.com/OpenDFM/ibsen 获取。